R语言如何统计数据集中不同类型数据个数? | 您所在的位置:网站首页 › r 数组 › R语言如何统计数据集中不同类型数据个数? |
在前面的章节,学习R数据分析的内容,主要包含数据概览、数据清洗、数据预处理、数据筛选的内容,这一节主要介绍数据描述的内容,包含描述统计、标准差、协方差和相关系数的使用方法,以及数据汇总内容,下面一起来学习。 示例工具:R x64 3.5.3、RStudio本文讲解内容:数据描述与汇总适用范围:数据描述、数据汇总本次内容的学习需要先创建一组数据集,数据内容包含"ID"、"NAME"等五个字段,数据结果如下。 #手动创建数据表data data一、数据描述 在Excel中,我们使用数据分析工具箱,即可对数据做描述统计、协方差、相关系数等分析,操作较为简单。 在R中使用summary函数对数据描述统计,summary函数是进行描述统计的函数,自动生成数据的数量,均值,标准差等数据,如下是对手动创建数据表data做描述统计。 在数据表data中,除"AGE"、"SAL"其他三个字段是非数值型字段,所以没有描述统计结果,而"AGE"、"SAL"两个数值型字段计算的描述统计结果如下所示: #数据表描述统计 summary(data)除了对整个数据表data做描述统计,还可以对某一个数据列单独做描述统计,如下将SAL列索引出来,然后使用summary函数做描述统计。 #特定列描述统计 summary(data$SAL)对数据计数使用length函数,如下对整个数据表计数。 #数据表计数 length(data)还可以对数据表索引出某一列计数。 #特定列计数 length(data$SAL)求和使用sum函数,这里对收入求和。 #求和 sum(data$SAL)求平均收入使用mean函数。 #均值 mean(data$SAL)求收入的最大值使用max函数。 #最大值 max(data$SAL)求收入的最小值使用min函数。 #最小值 min(data$SAL)求年龄的方差使用var函数。 #方差 var(data$AGE)求年龄的标准差使用sd函数。 #标准差 sd(data$AGE)二、数据汇总 数据汇总内容包含数据分组和数据透视,在R中进行数据汇总的方法有很多,这里主要介绍table函数和tapply函数,下面分别介绍这两个函数的使用方法,使用table函数对薪水的分布情况计数。 #使用table()函数进行汇总计数 table(data$SAL)使用table函数 ,将年龄作为行字段,薪水情况作为列字段进行计数,类似EXCEL中的数据透视功能,汇总依据是计数。 #使用table()函数对两个字段进行汇总计数 table(data$AGE,data$SAL)除了汇总依据是计数,还可以将汇总的依据变为求和,使用tapply函数,对每个人的收入进行汇总,数据结果如下: #按人名对薪资求和汇总 tapply(data$SAL,data$NAME,sum)如果是计数,在tapply函数中使用length函数,即对该字段计数。 #按年龄对ID计数汇总 tapply(data$ID,data$AGE,length) |
CopyRight 2018-2019 实验室设备网 版权所有 |